具相關資訊回饋能力之貝氏混合式機率檢索模型 (Using Relevance Feedback in Bayesian Probabilistic Mixture Retrieval Model) [In Chinese]

نویسندگان

  • Jen-Tzung Chien
  • Duen-Chi Yang
چکیده

摘要 本篇論文提出新穎之相關回饋(Relevance Feedback)方法並應用於混合式機率檢索系統(Mixture Probability Model)以提昇檢索效能。相關資訊回饋法以往最常用的技術是查詢句擴充法(Query Expansion),本回饋方式 是架構在以混合式機率模型為主的檢索系統上,為了加強檢索效能,我們是在查詢句擴充法中,強調不同查詢 詞的重要性,所以提出查詢詞權重重調整(Query Term Reweighting)技術;此外,我們也利用檢索出來的前 N 名文件和資料庫的每份文件個別重調成新的文件語言模型,以提供較好的文件語言模型提供檢索時使用。在查 詢字權重之重調整部分以最佳相似度(Maximum Likelihood)為估測準則,而文件語言模型之調整部分先後以 最佳相似度與最佳事後機率(Maximum a Posteriori)為估測準則供我們對照比較,並使用了 EM(Expectation Maximization)演算法去估測出適當的參數。實驗結果顯示使用資訊回饋及貝氏語言模型調整可有效提升文件檢 索正確率。

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Semantic Associative Topic Models for Information Retrieval

主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...

متن کامل

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...

متن کامل

線上新聞語音檢索系統 (Online New Retrieval Based on Speech Input) [In Chinese]

陳江村 羅瑞麟 張智星 國立清華大學 資訊工程系 新竹市光復路二段 101 號 E-mail : {jtchen,roro,jang}@wayne.cs.nthu.edu.tw TEL: (03)5715131-3582 摘要: 在此報告中,我們實作了一個結合隱藏式馬可夫模型(Hidden Markov Model, HMM) 為基礎的 HTK(HMM Toolkit)和網頁資料檢索技術的線上新聞語音資料檢索系 統。一般的網頁資料檢索(如 google)須使用者輸入相關文字,才得以文字比對 方式進行檢索。在此我們則嘗試加入語音辨識的技術讓使用者更易進行檢索。本 系統分成新聞前處理及語音查詢兩階段。在辨識內容固定,高準確度的辨識結果 下,本系統特別適用於手機、PDA、嵌入式系統等小型、不易以手操作輸入的裝 置。本系統亦經清大盲友會的盲人朋友試用,反應十分良好。 關鍵詞:語音辨識、資料檢...

متن کامل

整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]

鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004